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(54) Title: METHOD AND DEVICE FOR VOICE RECOGNITION 

(54) Bezeichnung: VERFAHREN UND VORRICHTUNG ZUR SPRACHERKENNUNG 

(57) Abstract 



The invention relates to a method and device which permits an 
adjustment of precision of a voice recognition system during a voice 
recognition. To this end, system parameters of the voice recognition 
system are established using an input quantity by means of a representation 
specification and the voice recognition system is accordingly adjusted 
to the values which are determined in this manner. An adaptation 
of a voice recognition system can optionally result during operation in 
order to guarantee an application dependent matching in a range between 
maximum quality during voice recognition and the highest possible speed 
during execution of the voice recognition. The computing element can 
also be automatically adjusted by determining a performance index of 
the computing element beforehand using a program provided for the 
adjustment. Said performance index represents a measure for the input 
quantity and, as a result, guarantees an adequate operation of the voice 
recognition system on this computing element. 

(57) Zusammenfassung 
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Ermittlung der 
Werte der Systemparameter 
anhand der Eingangsgrdfte 



I 



-202 



Einstellung des 
Spracherkennungssystems 



-203 



Es werden ein Verfahren und eine Vorrichtung angegeben, die 
bei einer Spracherkennung eine Einstellung einer Genauigkeit eines 
Spracherkennungssystems ermoglichen. Dazu werden anhand einer 
Eingangsgrosse uber eine Abbildungsvorschrift Systemparameter des 
Spracherkennungssystems ermittelt und das Spracherkennungssystem 
entsprechend der auf diese Art bestimmten Werte eingestellt. Optional 
kann eine Adaption eines Spracherkennungssystems wahrend des 
Betriebs erfolgen, urn eine anwendungsabhangige Anpassung in einem 
Bereich zwischen maximaler Qualitat bei der Spracherkennung und 
moglichst hoher Geschwindigkeit bei der Durchfuhrung der Spracherkennung zu gewahrleisten. Auch kann automatisch der Rechner 
eingestellt werden, indem zuvor anhand eines dafur vorgesehenen Programmes ein Leistungsindex des Rechners bestimmt wurde, der ein 
Mass fur die Eingangsgrosse darstellt und somit einen adaquaten Betrieb des Spracherkennungssystems auf diesem Rechner gewahrleistet. 
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Beschreibung 

Verfahren und Vorrichtung zur Spracherkennung 

5 Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur 
Spracherkennung . 



Ein Spracherkennungssystem ist aus [1] bekannt. Dort finden 
sich auch eine grundlegende Einfiihrung der an dem 
10 Spracherkennungssystem beteiligten Komponenten sowie 

wichtiger, bei der Spracherkennung ublicher Techniken. 

Bei einem bekannten Spracherkennungssystem ist eine 
Genauigkeit, also ein Mali fur eine Qualitat der Erkennung, 
15 vorgegeben. Der Benutzer mufl nun mit diesem System auskommen, 
auch wenn fur seine Anwendung eine verminderte Genauigkeit 
ausreichen, dafiir er aber eine hohere 
Bearbeitungsgeschwindigkeit erzielen wiirde . 

20 Das Prinzip des Pruning eines Suchraums ist aus [2] (siehe 
Kapitel 3.3.3, Seite 40) bekannt. Dabei handelt es sich um 
ein "Beschneiden" des Suchraums, also eine Methode zur-. 
Reduzierung einer Anzahl von Suchpfaden des Suchraums, wobei 
diejenigen Suchpfade abgeschni tten werden, die wenig 

25 aussichtsreich sind. Zuerst wird dazu ein Suchpfad mit 

minimalen Kosten (optimaler Suchpfad) ermittelt. Daraufhin 
werden alle Suchpfade (Aste des Suchbaums) weggeschnitten, 
deren Kosten oberhalb des Minimums zuzuglich einer addierten 
vorgegebenen Bewertungsgrofte, die als Pruning-Schwelle 

30 bezeichnet wird, liegen. Fur eine detaillierte Erklarung des 
Prunings: [2], Seite 40ff., insbesondere Bild 16 auf 
Seite 41. 

Bei Verwendung der Pruning-Schwelle ist nicht bekannt, 
wieviel Suchpfade in dem Suchbaum tibrig bleiben. Will man die 
35 Anzahl dieser ubrigbleibenden Suchpfade auf einem 

vorgegebenen Niveau halten, wird die Pruning-Schwelle 
dynamisch angepalit . 
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Ein Histogramm-Pruning ist aus [3] oder [4] bekannt. Hier 
werden eine vorgegebene Anzahl "bester" Suchpfade, also 
Suchpfade mit einer hohen Auf tr ittswahrscheinlichkeit , 
5 verwendet, indem Hauf igkeiten der Suchpfade in Form eines 
Histogramms bewertet werden. Die Pruning-Schwelle wird 
dynamisch verandert . 

Eine akustische Vorausschau im Suchbaum (Fachwort: Fast-Look- 

10 Ahead) ist aus [5] oder [6] bekannt. 

Die bei der akustischen Vorausschau (auch schnelle 
Vorauswahl) verfolgte Idee beruht auf der Eigenschaft einer 
Sprache, daft sich alle Worter aus einem beschrankten Inventar 
von Unterworteinheiten (z.B. Phonemen, Halbsilben) 

15 zusammensetzen. Fur diese Unterworteinheiten wird nun "im 

Voraus" eine akustische Bewertung durchgef tihrt . Es werden nur 
diejenigen Kombination von Unterworteinheiten weiterver f olgt , 
deren akustische Bewertungen jeweils unterhalb einer 
vorgegebenen Schwelle liegen. Ein Gewinn im Bewertungsauf wand 

20 besteht darin, daft fur eine geringe Anzahl von Unterwort- 
einheiten ein Maft fur die Ubereinstimmung eines zu 
erkennenden Sprachsignals mit einer Zielgrofte im voraus 
berechnet und als Grundlage fur eine Entscheidung 
herangezogen wird, ob ein Groftteil des Suchbaums nicht weiter 

25 berlicksichtigt werden soil. Anschaulich gesprochen bedeutet 
dies, daft mehr Suchpfade im Suchbaum eingespart werden, als 
durch die Vorausberechnung hinzukommen. Ein derartiger Gewinn 
wird umso grdfter, je hoher das Verhaltnis von neuen 
Wortanfangen zu einer Anzahl von Unterworteinheiten wird. 

30 Dieses Verhaltnis steigt mit der Anzahl der zu erkennenden 
Unterworteinheiten bzw. Worter (Lexikongrofte) . 

Ein Vorteil des Verfahrens der akustischen Vorausschau 
besteht in der Regularitat der Algorithmen zur Berechnung der 
35 entsprechenden Mafte. Da keine Ver zweigungen durch Wortenden, 
Syntaxknoten, etc. im Suchraum auftreten, ist das Schema der 
Berechnung der Mafte regular. Gerade deshalb bietet sich ein 
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solches Verfahren auch fur eine Imp lementie rung in Hardware 
an . 

Die Vorausberechnung der Mafte (Fachwort: Fast-Match-Scores) 
wirci dadurch moglich, daft die eigentiiche Suche urn eine feste 
Anzahl von Zeitfenstern hinter den aktuellen extrahierten 
Mafien des Sprachsignals hinterhereilt . Mit den aktuellen 
Maften wird die Vorausberechnung der Maiie weiterer 
Unterworteinheiten durchgefiihrt (siehe [5], Seite 65, Bild 
33) . 

Auch in Sprachmodellen ist die Durchfiihrung einer derartigen 
Vorausschau bekannt (siehe [6]). 

Das Prinzip der Vorausschau im Sprachmodell (Fachwort: 
Language-Model-Look-Ahead) ist die Berucksicht igung der im 
Sprachmodell vorhandenen Wahrscheinlichkeiten in dem 
Suchprozefi so frlih wie moglich, auch in dem assoziierten 
Pruning. Dies wird erreicht durch eine Faktorisierung der 
Wahrscheinlichkeiten im Sprachmodell, Eine detaillierte 
Beschreibung mit einer formalen Notation ist in [6] 
enthalten . 

Schlieiilich ist z.B. aus [7] eine Schwelle zur Auswahl 
berechnender Distanzparameter bekannt. Derartige 
Auswahlverf ahren sind generell mehrstufig angelegt. Zuerst 
wird eine grobe Berechnung mit eineiti Teil der Distanzen 
durchgefiihrt. Im nachsten Schritt werden dann diejenigen 
Distanzen bestimmt, die beziiglich eines AbstandsmaBes nahe an 
der besten Distanz des ersten Berechnungsschrittes liegen. 
Dieses AbstandsmaJJ kann liber eine Schwelle variiert werden, 
wodurch der Berechnungsauf wand fur die Bestimmung der 
Distanzparameter variiert wird. 



35 



Die Auf gabe der Erfindung besteht darin, ein Verfahren und 
eine Vorrichtung zur Einstellung der Genauigkeit des 
Spracherkennungssystems zu schaf f en . 
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Dieses Aufgabe wird gemaft den Merkmalen der unabhangigen 
Patentanspruche gelost. 

Es wird ein Verfahren zur Einstellung einer Genauigkeit eines 
Spracherkennungssystems angegeben, bei dem durch eine 
vorgebbare Eingangsgrofte die Genauigkeit bestimmt wird. 
Anhand dieser Eingangsgrofte werden Werte fiir Systemparameter 
des Spracherkennungssystems, vorzugsweise mittels eines 
Rechners, ermittelt. Anhand dieser Werte wird das 
Spracherkennungssystem eingestellt. Dies geschieht 
vorzugsweise automatisch durch den Rechner. 

Somit ist es ein Vorteil der Erfindung, die Genauigkeit des 
Spracherkennungssystems adaptierbar und zugleich fiir den 
Laien einstellbar zu machen. Je nach Anwendung bzw. je nach 
Rechenleistung, die fur das Spracherkennungssystem auf dem 
Rechner bereitsteht, konnen unterschiedliche Anf orderungen an 
die Qualitat des Spracherkennungssystems einfach durch 
Adaption der Eingangsgrofte vorgenommen werden. 

Eine Weiterbildung besteht darin, dali gemaft einer 
Abbildungsvorschrif t aus der Eingangsgrofte die Werte fiir die 
Systemparameter des Spracherkennungssystems -ermittelt werden . 
Dabei kann diese Abbildungsvorschrif t anhand einer Tabelle 
umgesetzt sein. 

Es ist also moglich, durch Einstellung der Eingangsgrofte 
automatisch die damit verknupften Werte der Systemparameter 
des Spracherkennungssystems zu ermitteln und automatisch dem 
Spracherkennungssystem zuganglich zu machen. Das Ablegen der 
Werte in einer Tabelle hat den Vorteil/ daft eine individuelle 
Anpassung verschiedener Werte der Eingangsgrolie zu jeweils 
verschiedenen Werten der Systemparameter durchgefiihrt werden » 



kann . 



Eine andere Weiterbildung besteht darin, die Einstellung 
wahrend des Betriebs des Spracherkennungssystems 
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durchzuf uhren. Dabei ergibt sich vorteilhaft, daft die 
Anpassung des Spracher kennungssystems individuell nach den 
jeweiligen Anforderungen wahrend des Betriebs des 
Spracher kennungssystems angepaftt werden kann. 

Eine zusatzliche Weiterbildung der Erfindung besteht darin, 
daft mindestens einer der folgenden Systemparameter anhand der 
EingangsgroBe bestimmt wird: 

a) Pruning-Schwelle; 

b) Histogramm-Pruning; 

c) akustische Vorausschau; 

d) Vorausschau im Sprachmodell ; 

e) Schwelle zur Auswahl zu berechnender Distanzparameter . 

Zur Bedeutung und Funktion dieser Systemparameter wird auf 
die Einleitung verwiesen. 

Die angefiihrten Systemparameter stellen eine Auswahl von 
Moglichkeiten dar. Es sind andere Systemparameter 
vorstellbar, die, abhangig von dem jeweiligen 
Spracherkennungssystem, von den oben genannten verschieden 
sein konnen. 

Auch ist es eine Weiterbildung der Erfindung, daft die 
Systemparameter hinsichtlich ihres Einflusses auf eine 
Zielgrbfte hin gewichtet werden. Dabei kann die Zielgrofte 
beispielsweise eine Genauigkeit des Spracherkennungssystems 
oder eine Geschwindigkeit des Spracherkennungssystems (also 
die Geschwindigkeit zur Durchfuhrung des 
Spracherkennungsprozesses) sein. Im Hinblick auf die 
jeweilige Zielgrofte konnen die Systemparameter anteilig 
gleich oder entsprechend einer vorgegebenen 
Gewichtungstabelle unterschiedlich gewichtet werden. 



Im Rahmen einer anderen Weiterbildung wird die Eingangsgrofte 
anhand eines Einstellelements bestimmt. 
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Vorzugsweise weist das Eins tellelement einen eindimensionalen 
Freiheitsgrad mit zwei Begrenzungen auf, wobei die erste 
Begrenzung als maximale Genauigkeit des 
Spracherkennungssystems und die zweite Begrenzung als 
5 maximale Geschwindigkeit des Spracherkennungssystems 
umgesetzt werden. 

Auch ist es eine Weiterbildung des Verfahrens, daft das 
Einstellelement auf einem Rechner als ein Schieberegler 
10 dargestellt wird und anhand einer Tastatur, eines Touch-Pads 
oder einer Maus bedient wird. 

Auch kann das Einstellelement ein Drehregler, ein 
Schieberegler oder Potentiometer sein. 

15 

In einer zusatzlichen Weiterbildung wird das Einstellelement 
liber Sprache angesteuert, die von einem Spracherkenner, 
insbesondere dem Spracherkennungssystem, ausgewertet wird. 
Die Eingangsgrofie kann mittels Spracheingabe bestimmt werden. 

20 

Das Verfahren wird auch weitergebildet , indem eine 
vollstandig automatisierte Bestimmung der Eingangsgrofie in 
den f olgenden Schritten durchgefuhrt wird: 

Eine Leistungsf ahigkeit des Rechners, auf dem das 
25 Spracherkennungssystem ablaufen soil, wird anhand eines 
Programms zur Leistungsermittlung bestimmt und als ein 
Leistungsindex abgespeichert . Unter Beriicksichtigung des 
Leistungsindex werden die Systemparameter des 

Spracherkennungssystems automatisch eingestellt und dadurch 
30 wird eine leistungsf ahige Spracherkennung unter z.B. 
Echtzeitbedingung gewahr leistet . 

Ein Programm zur Bestimmung der Leistungsf ahigkeit des 
Rechners kann eine vorgegebene Schleife sein, die eine 
bestimmte Anzahl Iterationen durchlauft, wobei die Zeit fur 
35 die Iterationen gemessen wird. Anhand einer Tabelle kann 

abhangig von der gemessenen Zeit der Leistungsindex bestimmt 
werden. Auch gibt es kommerziell oder als Freeware verfiigbare 
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Programme, die die Leistungsf ahigkeit des Rechners ermitteln 



Leistungsindex ausgeben . 

5 Auch wird eine Vorrichtung zur Spracherkennung angegeben, die 
ein Spracherkennungssystem aufweist und mit einem Mittel zur 
Einstellung einer Genauigkeit des Spracherkennungssystems 
ausgefiihrt ist, welches Mittel Systemparameter des 
Spracherkennungssystem aus einer Eingangsgroiie umsetzt, also 
10 die Einstellung des Spracherkennungssystems und seiner 
zahlreichen Systemparameter anhand der Eingangsgroiie 
vornimmt . 

Dabei ist es vorteilhaft, daft eine solche Einstellung der 
15 Systemparameter anhand der Eingangsgroiie wahrend des Betriebs 
des Spracherkennungssystems erfolgen kann. So wird fur den 
Benutzer eine einfache Anpassung der Vielzahl von 
Systemparametern moglich. 

20 Die Eingangsgroiie ist in einer Weiterbildung automatisch 
bestimmbar . Dazu wird anhand einer Einrichtung zur 
Leistungsmessung des Rechners, auf dem das 
Spracherkennungssystem ablauft, ein sog. Leistungsindex 
ermittelt und zur Einstellung der Genauigkeit des 

25 Spracherkennungssystems benutzt . 

Eine andere Weiterbildung sieht vor, dail die Eingangsgroiie 
durch ein E.instellelement vorgebbar ist. Dazu sind eine 
Vielzahl moglicher Einstellemente (Potentiometer, virtuelle 
30 Steuereinheiten auf dem Rechner, etc*) denkbar, deren 
Einstellung direkt die Genauigkeit des 
Spracherkennungssystems bestimmt . 



und als eine Bewertungsgrdile der Leistungsf ahigkeit einen 



35 



Vorteilhaft konnen Schritte des erf indungsgemalien Verfahrens 
auf der angegebenen Vorrichtung durchgefuhrt werden. 
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Weiterbildungen der Erfinciung ergeben sich auch aus den 
abhangigen Anspruchen. 

Anhand der folgenden Figuren werden Aus f uhrungsbeispiele der 
5 Erfindung naher dargestellt. 

Es zeigen 

Fig.l eine Systemarchitektur fur ein 
10 Spracherkennungssystem; 

Fig. 2 ein Blockdiagramm mit Schritten eines Verfahrens zur 
Einstellung der Genauigkeit eines 
Spracherkennungs systems ; 

15 

Fig. 3 ein Blockdiagramiu, das eine Verknupfung einer 

Eingangsgroiie mit mindestens einem Systemparameter 
liber eine Abbildungsvorschrif t darstellt; 

20 Fig. 4 ein Diagramm, das verschiedene mogliche 

Systemparameter des Spracherkennungssystems 
darstellt; 

Fig. 5 eine Skizze, die den EinfluB der Systemparameter auf 
25 eine Zielgrofte darstellt; 

Fig. 6 ein Diagramm, das verschiedene Moglichkeiten zur 
Einstellung der Eingangsgrofie darstellt; 

30 Fig. 7 ein Spracherkennungssystem mit einem Mittel zur 
Einstellung der Genauigkeit. 

In Fig. 1 ist allgemein eine Systemarchitektur fur eine 
Spracherkennung (Spracherkennungssystem) dargestellt . 



35 



Voraussetzung fur die Erkennung natiirlich gesprochener 
Sprache ist ein geeigneter Formalismus zur 
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Wis sens representation . Ein vollstandiges 

Spracherkennungssystem umfafit mehrere Verarbeitungsebenen . 
Dies sind insbesondere Akustik-Phonetik, Intonation, Syntax, 
Semantik und Pragmatik. In Fig.l werden die 
Verarbeitungsebenen bei der Erkennung aufgezeigt. 

Das natiirliche Sprachsignal 101 gelangt in das 
Spracherkennungssystem. Dort wird in einer Komponente 102 
eine Merkmalsextraktion durchgef iihrt . Nach der 
Merkmalsextraktion werden anhand bekannter akustisch- 
phonetischer Einheiten 103 Sprachlaute erkannt (siehe Block 
104). Dabei handelt es sich urn die Berechnung akustischer 
Distanzparameter. Nach der Sprachlauter kennung 104 erfolgt 
die lexikalische Decodierung (Worterkennung) in einem Block 
106 mit Hilfe des Aussprachemodells bzw. Wortlexikons 105 und 
daran anschliefiend eine Syntaxanalyse 108 mit Hilfe des 
Sprachmodells, das die Grammatik umfafit, 107. Die 
Worterkennung 106 und die Syntaxanalyse 108 stellen die Suche 
nach einer Entsprechung fur das Sprachsignal dar. Schliefilich 
wird in einem Block 110 eine semantische Nachbearbeitung 
durchgef uhrt, wobei Kontextwissen und Pragmatik 109 
berucksichtigt werden und schliefilich die vom 
Spracherkennungssystem erkannte Sprache 111 folgt. 

In F ig* 2 ist ein Blockdiagramm dargestellt, das Schritte 
eines Verfahrens zur Einstellung der Genauigkeit eines 
Spracherkennungssystems zeigt . 

In einem Schritt 201 wird durch eine vorgebbare Eingangsgrofie 
die Genauigkeit des Spracherkennungssystems bestimmt. 
Daraufhin wird in einem Schritt 202 anhand dieser 
Eingangsgrofie fur Systemparameter des Spracherkennungssystems 
Werte ermittelt. Schliefilich wird in einem Schritt 203 das 
Spracherkennungssystem anhand der ermittelten Werte 
eingestellt . 
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Fig, 3 zeigt ein Blockdiagramm, das eine Verknupfung einer 
Eingangsgrolie liber eine Abbildungsvorschrif t mit mindestens 
einem Systemparameter darstellt. 

Die erwahnte Eingangsgrolie 301 wird anhand einer 
5 Abbildungsvorschrif t 302 auf die Systemparameter SP 303 des 
Spracherkennungssystems abgebildet. Dabei wird vorzugsweise 
eine Eingangsgrolie 301 mehreren Sys temparametern uber die 
Abbildungsvorschrif t zugeordnet. Durch diese 
Abbildungsvorschrif t 302 wird durch Vorgabe einer 

10 Eingangsgrolie das Spracherkennungssystem angepalit, also 

werden mehrere Systemparameter SP durch Veranderung einer 
Eingangsgrolie 301 beeinflulit. Die Abbildungsvorschri f t 302 
hat vorzugsweise die Form einer Tabelle, in der eine Spalte 
mdgliche Eingangsgrolien 301 enthalt, und in einer Zeile 

15 dieser Spalte der jeweiligen Eingangsgrolie mehrere Werte fur 
Systemparameter SP 303 zugeordnet werden. Die 
Abbildungsvorschrif t 302 besteht im Suchen nach dem der 
Eingangsgrolie 301 ,zugeordneten Eintrag (Zeile) in der Tabelle 
und in der Ubergabe der gefundenen Werte fur Systemparameter 

20 SP 303 an das Spracherkennungssystem. 

Fig. 4 zeigt ein Diagramm, das verschiedene mdgliche 
Systemparameter des Spracherkennungssystems darstellt. Die 
Systemparameter SP des Spracherkennungssystems, dargestellt 
25 in einem Block 401, umfassen mindestens einen der folgenden 
Parameter : 

a) Pruning-Schwelle 402; 

b) Histogramm-Pruning 403; 

c) akustische Vorausschau 404; 

30 d) Vorausschaum im Sprachmodell 4 05; 

e) Schwelle fur Distanzparameter 406. 



35 



Insgesamt sind weitere Systemparameter des 
Spracherkennungssystems zur Einstellung uber die 
Eingangsgrolie 301 denkbar, angedeutet durch den Block 407. 



• 
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Fig. 5 zeigt eine Skizze, die den Einflufi der Sys temparameter 
auf eine Zielgrolie darstellt. 

Die Sys temparameter SP (siehe Block 501) nehmen Einfluli auf 
eine Zielgrolie ZG (siehe Block 502) . Wie oben beschrieben, 
gibt es mehrere Systemparameter SPI, SP2 , usw t/ dargestellt 
in einem Block 503. Dabei nimmt jeder einzelne 
Systemparameter SPi (i=l,2,...) mittels eines fur den 
jeweiligen Systemparameter SPi vorgesehenen Gewichts Gi 
(dargestellt in einem Block 504) Einfluli auf die Zielgrolie 
ZG. Durch die Gewichtung der Systemparameter SP ist es 
moglich, je nach Systemparameter SP einen unterschiedlichen 
Einfluli auf die Zielgrolie ZG zu nehmen. 

In Fig. 6 ist ein Diagram dargestellt, das verschiedene 
Moglichkeiten zur Einstellung der Eingangsgrolie zeigt. Die 
Einstellung der Eingangsgrolie, dargestellt in dem Block 601, 
erfolgt anhand von Bedienkomponenten des Rechners R (siehe 
Block 602), anhand von Regelungskomponenten 603 oder anhand 
des Rechners selbst (siehe Block 604) . Der Rechner R umfalit 
dazu mindestens ein Mittel zur Einstellung der Eingangsgrolie, 
wie eine Tastatur 605, eine Maus 606, ein Touch-Pad 607 oder 
Spracheingabe 608 liber das Spracherkennungssystem. Mogliche 
Komponenten zur Regelung, dargestellt in dem Block 603 sind 
ein Drehregler 609, ein Schieberegler 610 oder ein sonstiger 
Regler 611, vorzugsweise ein Potentiometer. Zusatzlich wird 
automatisch anhand eines Programms, das auf dem Rechner 
lauft, die Rechenleistung des Rechners ermittelt und die 
Eingangsgrolie zur Einstellung des Spracherkennungssystems 
entsprechend bestimmt. Dadurch wird gewahrleistet, dali ein 
automatisch eingestellter Rechner eine seiner Rechenleistung 
entsprechende Qualitat bei der Spracherkennung gewahrleistet. 
Automatisch wird ein Kompromili gefunden zwischen hoher 
Qualitat bei der Spracherkennung, unter Einbulie von 
Rechenleistung bzw. Echtzeiterkennung der Sprache, und 
schneller Spracherkennung mit entsprechend wenig Bedarf an 
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Rechenleistung allerciings deutlicher Qualitatseinbufte bei der 
Spracherkennung . 

Fig. 7 zeigt eine Vorrichtung aus einem Spracherkennungssystem 
5 701 und einem Mittel zur Einstellung der Genauigkeit des 
Spracherkennungssystems 702 . 

Anhand des Mittels zur Einstellung der Genauigkeit 702 sind 
durch eine EingangsgroBe Systemparameter des 

10 Spracherkennungssystems bestimmt. Dazu wird die 

Eingangsgrofte, vorzugsweise anhand einer vorgegebenen 
Tabelle, einer Vielzahl von Systemparametern (Pruning- 
Schwelle, Hi stogramm- Pruning, akustische Vorausschau, 
Vorausschau im Sprachmodell , Schwelle zur Auswahl zu 

15 berechnender Distanzparameter, etc.) zugeordnet. 

Die Eingangsgroile ist wahlweise anhand eines Einstellelements 
703 oder einer Einrichtung zur Leistungsbestimmung des 
Rechners 704 bestimmbar . Hierbei sei auch auf Fig. 6 und die 
20 dort angegebenen Moglichkei ten zur Einstellung der 
Eingangsgroile verwiesen . 
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eines Prozessors fur die automatische Spracherkennung", 
5 Lehrstuhl fur Integrierte Schaltungen, Technische 

Universitat Munchen, Dissertation, 19.07.1993, Kapitel 2, 
Seiten 13 bis 26. 

[2] A. Hauenstein: "Optimierung von Algorithmen und Entwurf 
eines Prozessors fur die automatische Spracherkennung", 
10 Lehrstuhl fur Integrierte Schaltungen, Technische 

Universitat Munchen, Dissertation, 19.07.1993, Kapitel 
3.3.3, Seiten 40 bis 43. 

[3] Volker Steinbiss, Bach-Hiep Tran, Hermann Ney: 

"Improvements in Beam Search. Proc. Intl. Conf . Speech 
15 and Language Processing, Yokohama 1994, Seiten 2143 bis 

2146. 

[4] M. Niemoller, A. Hauenstein, E. Marschall, P. Witschel, 
U. Harke: "A PC-based Real-Time Large Vocabulary 
Continuous Speech Recognizer for German", Proc. IEEE 
20 Intl. Conf. on Acoustics, Speech and Signal Processing; 

Munchen 1997. 

[5] A. Hauenstein: "Optimierung von Algorithmen und Entwurf 
eines Prozessors fur die automatische Spracherkennung", 
Lehrstuhl fur Integrierte Schaltungen, Technische 
25 Universitat Munchen, Dissertation, 19.07.1993, Kapitel 

3.5.1, Seiten 65 bis 69. 

[6] S. Ortmanns, A. Eiden, H. Ney, N. Coenen: "Look-Ahead 

Techniques for Fast Beam Search", Proc. IEEE Intl. Conf. 
on Acoustics, Speech and Signal Processing; Munchen 1997, 
30 Seiten 1783 bis 1786. 



E. Bocchieri: "Vector Quantization for the Efficient 
Computation of Continuous Density Likelihoods", Proc. 
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IEEE Intl. Conf. on Acoustics, Speech and Signal 
Processing; 1993, Seiten 11-692 bis 11-695. 
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Patent anspruche 

1. Verfahren zur Spracherkermung, 

bei dem gesprochene Sprache anhand eines 
Spracherkennungssystems erkannt wird, wobei 

a) bei dem das Spracherkennungssystem auf einem Rechner 
ablauf t ; 

b) bei dem durch ein Programm zu einer 
Leistungsermittlung des Rechners ein Leistungsindex 
des Rechners bestimmt wird; 

c) bei dem die Eingangsgrofte fur das 
Spracherkennungssystem automatisch anhand des 
Leistungsindex bestimmt wird, wobei dabei eine 
Rechenleistung des Rechners automatisch auf die 
Genauigkeit des Spracherkennungssystems e ingest el It 
wird . 



2. Verfahren nach Anspruch 1, 

bei dem die Werte fur die Systemparameter des 
Spracherkennungssystems bestimmt werden, indem gemaB 
einer Abbildungsvorschrif t aus der Eingangsgrofte die 
Werte ermittelt werden. 

3. Verfahren nach Anspruch 2, 

bei dem die Abbildungsvorschrif t anhand einer Tabelle 
umgesetzt wird. 

4. Verfahren nach einem der vorhergehenden Anspruche, 
bei dem die Einstellung wahrend des Betriebs des 
Spracherkennungssystems durchgefuhrt wird. 

5. Verfahren nach einem der vorhergehenden Anspruche, 

bei dem das Spracherkennungssystem mindestens einen der 
folgenden Systemparameter umfaftt: 

a) Pruning-Schwelle; 

b) Histogramm-Pruning; 

c) akustische Vorausschau; 
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d) Vorausschau im Sprachmodell ; 

e) Schwelle zur Auswahl zu berechnender Distanzparameter . 

6. Verfahren nach Anspruch 5, 

5 bei dem mindestens einer der Systemparameter anhand der 

Eingangsgrofte bestimmt wird. 

7. Verfahren nach Anspruch 6, 

bei dem die Systemparameter gewichtet werden hinsichtlich 
10 ihres Einflusses auf jeweils eine ZielgroBe. 

8. Verfahren nach Anspruch 7, 

bei dem eine Zielgrofte mindestens eine der folgenden 
Groften ist: 

15 a) Genauigkeit des Spracher kennungssystems ; 

b) Geschwindigkeit des Spracherkennungssystems. 

9. Verfahren nach Anspruch 7 oder 8, 

bei dem die Systemparameter gleich gewichtet werden. 

20 

10. Verfahren nach Anspruch 7 oder 8, 

bei dem die Systemparameter entsprechend einer 
vorgegebenen Gewichtungstabelle gewichtet werden . 

25 

11. Vorrichtung zur Spracherkennung, 

a) bei der ein Spracherkennungssystem vorgesehen ist, 

b) bei der ein Mittel zur Einstellung einer Genauigkeit 
des Spracherkennungssystems vorgesehen ist, das derart 

30 eingerichtet ist, dafl Systemparameter des 

Spracherkennungssystems einstellbar sind, wobei die 
Systemparameter anhand einer EingangsgroBe ermittelbar 
sind . 



35 12. Vorrichtung nach Anspruch 11, 

mit einer Einrichtung zur Leistungsmessung, die derart 
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eingerichtet ist, daft die EingangsgroBe automatisch 
bestimmbar ist. 
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